Лаба 6. Лабораторна робота з Комп’ютерна лінгвістика. Робота № 526683

Адміністрація вирішила продати даний сайт. За детальною інформацією звертайтесь за адресою: rozrahu@gmail.com

Лаба 6

Інформація про навчальний заклад

ВУЗ:

Національний університет Львівська політехніка

Інститут:

ІКНІ

Факультет:

Прикладна лінгвістика

Кафедра:

Системи автоматизованого проектування

Інформація про роботу

Рік:

2014

Тип роботи:

Лабораторна робота

Предмет:

Комп’ютерна лінгвістика

Група:

ПРЛс

Варіант:

Завантажити

Частина тексту файла

МІНІСТЕРСТВО ОСВІТИ І НАУКИ, МОЛОДІ ТА СПОРТУ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ЛЬВІВСЬКА ПОЛІТЕХНІКА» Кафедра «Системи автоматизованого проектування» Звіт до лабораторної роботи №6 «Вивчення бібліотеки прикладних програм NLTK, для опрацювання текстів природною мовою. Використання регулярних виразів для обробки тексту» з курсу «Комп’ютерна лінгвістика» Вираз re.search(regexp, w) дозволяє знаходити слова w , які відповідають регулярному виразу regexp . Регулярні вирази також можна використовувати для виявлення фрагментів слів, або для модифікації слів різними способами. Виявлення фрагментів слів Метод re.findall() ("знайти всеl") дозволяє знайти всі відповідності даному регулярному виразу. В наступному прикладі показано знаходження та підрахунок всіх голосних. Подібним способом можна знайти та побудувати частотний розподіл для послідовностей з двох і більше голосних в довільному тексті. В наступному прикладі показано спільне використання регулярного виразу та умовного частотного розподілу. В програмі зі слів мовою Rotokas вилучаються всі послідовності приголосна – голосна. Оскільки вилучаються пари то на їх основі можна побудувати умовний частотний розподіл і представити його у вигляді таблиці. Для обробки мови часто буває необхідно опустити закінчення слів і працювати тільки з їх основами. Існують різні способи встановлення основи слова. Найпростіший спосіб, це відкидання будь-яких послідовностей, які нагадують суфікс. Звичайно цей підхід має ще багато інших проблем. Для їх виявлення розроблена функція для здійснення операції стемінгу. Використовуючи цю функцію можна опрацьовувати довільний текст. Для виявлення слів з дефісом або апострофом вираз \w+ потрібно розширити до: «\w+([-']\w+)*». Цей вираз означає що після \w+ може йти нуль або більше випадків [-']\w+; що дозволить виділити слова hot-tempered або it's. Символи ?: також потрібно додати до регулярного виразу, та шаблон для виявлення символів лапок. Токенізатор на основі регулярних виразів в NLTK Функція nltk.regexp_tokenize()подібна до re.findall() (у випадку використання останньої для токенізаці). Але, nltk.regexp_tokenize() є більш ефективною для здійснення цієї операції, та не потребує використання круглих дужок. Для покращення читабельності регулярний вираз поділений на окремі рядки до яких доданий коментар.. Спеціальний (?x) "verbose flag" – вказує Python на те, що оператор складається з декількох частин і пробілами між ними та коментарами потрібно знехтувати. У випадку використання «verbose flag», символ ' ' пробілів потрібно замінити на \s. Функція regexp_tokenize() може містити не обов’язковий параметр gaps . Коли цей параметр має значення True, регулярний вираз виділить проміжки між словами, аналогічно до re.split(). Тексти програм Варіант №3 3.1 Описати, які класи стрічок відповідають наступному регулярному виразу. [a-zA-Z]+. Результати перевірити використовуючи nltk.re_show() (рис.9) / Цьому виразу відповідають стрічки довільної довжини, які складаються з великих та (або) малих літер. 3.2 Описати, які класи стрічок відповідають наступному регулярному виразу. [A-Z][a-z]*. Результати перевірити використовуючи nltk.re_show() (рис.10) / Цьому виразу відповідають стрічки, які складаються з однієї великої літери та 0 або більше малих літер. 3.3 Описати, які класи стрічок відповідають наступному регулярному виразу. \d+(\.\d+)?. Результати перевірити використовуючи nltk.re_show() (рис.11) / рис.11 Класи стрічок 2 Даному виразу відповідають усі можливі додатні числа. 3.4 Описати, які класи стрічок відповідають наступному регулярному виразу. ([^aeiou][aeiou][^aeiou])*. Результати перевірити використовуючи nltk.re_show() (рис.12) / Цьому виразу відповідають 0 або більше послідовностей не голосна-голосна-не голосна. 3.5 Описати, які класи стрічок відповідають наступному регулярному виразу. \w+|[^\w\s]+.. Результати перевірити використовуючи nltk.re_show() (рис.13) / Виразу \w+|[^\w\s]+. відповідають стрічки, які складаються з довільної к-сті бу...

Лабораторна робота Комп’ютерна лінгвістика

DeLow

27.11.2014 04:11

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!

поділитись

Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Які роботи дозволено додавати до архіву?

Новини

Кілька варіантів заощадити на навчанні в Польщі

26.02.2019 12:38

Будь-який абітурієнт може поставити перед собою мету вчитися в Польщі. Для тих, кого зупиняє фінансове питання, важливо знати, що існує кілька варіантів навчання в Польщі для українців безкоштовно.

Лаба 6

Інформація про навчальний заклад

Інформація про роботу

Частина тексту файла

Коментарі

Завантаження файлу

Оголошення від адміністратора

Admin

Новини

Вхід на сайт

Поскаржитися на роботу